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Детектування нот на зображенн! нотного тексту 
на основ! результатив його структурного анализу 


В статье предложен подход к структурному анализу нотного текста, целью которого является детектирова- 
ние значимых элементов изображения. Для отделения фона от значимых объектов разработана процедура 
предобработки изображения, использующая порог яркости. Структурный анализ проводится с учетов 
иерархической структуры нотного текста, для поиска элементов которой применяется преобразование 
Хафа. Детектирование нот проводится с использованием знания геометрии искомых объектов с помощью 
эллиптической маски. 

Ключевые слова: структурирование изображения, гистограмма яркости, 

преобразование Хафа, эллиптическая маска. 
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Введение 


Первое печатное издание нотного текста появилось в 16 веке, и за этот период 
накопилось огромное количество произведений, составляющих культурное наследие че- 
ловечества. Но бумажные издания, к сожалению, обладают рядом существенных не- 
достатков, среди которых — недолговечность, относительно сложный процесс копиро- 
вания и невозможность обработки при помощи ЭВМ. Для литературных текстов су- 
ществуют десятки эффективных программ, которые, используя технологии оптического 
распознавания текста, позволяют конвертировать изображения рукописного, машино- 
писного или печатного текста в электронный вид для автоматизации систем учета в 
бизнесе или для публикации текста на веб-странице. 

Программы по распознаванию сканированного нотного текста находятся, можно 
сказать, в зачаточном состоянии, что связано с проблемами, возникающими при оп- 
тическом распознавании нотного текста. Это объясняется сложной структурой нотной 
графики, где могут присутствовать наряду со сложными элементами (гитарные табу- 
латуры, музыкальные ключи, крестообразные нотные головки, символ дубль диеза, 
скобки У знаков альтерации, аппликатура, форшлаги, символы арпеджио, педаль и 
конец педали, повторы, репризы нот и тактов) секции с буквами, включая рукописные. 

Яркими примерами таких программы являются «М1А15сап» и «СареПа-5сап», кото- 
рые распознают сканированный нотный текст и превращают его в стандартный МШУу!- 
файл. Кроме того, модули распознавания нотной графики внедрены в многочисленные 
программы-нотаторы. После распознавания пользователь видит на экране, что было 
распознано из нотного текста, и может его подредактировать, перед тем, как перевести в 
МШ]-формат. Однако распространенным мнением об эффективности работы модулей 
распознавания является «быстрее набрать все руками, чем потом исправлять». Таким 
образом, задача качественного максимально автоматизированного оптического распоз- 
навания печатного нотного текста является актуальной и востребованной. 

Данная работа выполнялась в рамках гранта «Создание информационной техно- 
логии автоматического оптического распознавания печатного нотного текста», конеч- 
ным результатом выполненных по нему работ является создание информационной 
технологии оптического распознавания печатного нотного текста, которая позволит 
сделать процесс распознавания более автоматизированным и робастным по отношению 
к качеству исходных данных. Это подразумевает для конечного пользователя мини- 
мальное вмешательство в процесс настройки системы распознавания нотного текста и 
обработки результатов распознавания. 

В статье речь пойдет об одном из этапов, без которого невозможно осуществить 
распознавание нот на изображении, о проведении структурного анализа нотного изобра- 
жения и детектировании нот на нем. 

Цель работы — разработка метода детектирования нот на цифровом изобра- 
жении, который позволит сделать процесс распознавания более автоматизированным и 
робастным по отношению к качеству исходных данных. Это подразумевает для ко- 
нечного пользователя минимальное вмешательство в процесс настройки системы 
распознавания нотного текста и обработки результатов распознавания. 

Для достижения поставленной цели необходимо решить следующие задачи: 

— предварительная обработка изображения, заключающаяся в его бинаризации 
и шумоочистке; 

—выделение структурных элементов изображения; 

— детектирование нот на полученных структурных элементах. 
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Предобработка изображения, содержащего нотный текст 


Все действия по обработке, сегментации и распознаванию будут проводиться 
над изображением страницы нотного текста, полученным со сканера. 

Нотный текст носит четко выраженный бинарный характер (наличие только зна- 
чимых объектов и фона), а изображения, поступающие на обработку, могут содержать 
разное количество цветов. Поэтому необходим полученный порог отделения фона от 
значимых элементов. В дальнейшем этот порог будет использоваться в методах обра- 
ботки изображения и при необходимости корректироваться для получения более ка- 
чественных результатов. Данная задача решается на два этапа: 

1) приведение изображения к оттенкам серого; 

2) построение гистограммы и определение порога. 

Приведение изображения к оттенкам серого производится путем пересчета всех 
цветов по формуле: 


У = 0.222 Кеа + 0.707 Стееп + 0.071 Вше, 


где У- искомое значение в сером цвете; Кей - значение красного 
коэффициента в палитре КОВ; Стееп — значение зеленого коэффициента в палитре 
КОВ; Вше - значение голубого коэффициента в палитре КОВ. 

Коэффициенты в данной формуле обусловлены разной чувствительностью че- 
ловеческого глаза к компонентам цвета. 

Для бинаризации полученного изображения необходимо построить гистограм- 
му яркости. Для большинства изображений нотного текста она будет иметь вид, 
подобный представленному на рис. 1. 


Гистограмма изображения Й 
З2974Н |1 


ЦЕ 


Рисунок 1 — Гистограмма яркости изображения нотного текста 


Как видно из рис. 1, гистограмма содержит два пика в точках Р! и Р›. Необходимо 
определить порог бинаризации так, чтобы он обеспечил наилучшее отделение фона от 
значимых объектов изображения. Для этого необходимо найти локальный минимум 
между двумя пиками. Если найденных минимумов несколько, то выбираем тот, ко- 
торый ближе к правому пику. Обозначим найденную точку через М. 

Теперь необходимо определить момент, когда происходит резкое возрастание 
значений гистограммы Хх) на участке между выбранным минимумом М и правым 
пиком. Под «резким» будем понимать возрастание значений гистограммы не менее 
чем в 3 раза при увеличении аргумента на 1. 
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Следовательно, для точки «резкого возрастания» (обозначим ее через №) 
выполняется условие: 


Г(х+1) 2х А (М№М+1) 
1(х) 1 (м) 


Величину р — смещения точки М, как показали численные исследования, 


смещение необходимо ДЛЯ более корректного вычисления порога яркости, по 
которому фон отделяется от значимых объектов: 


>3 при М <х<м 


Для вычисления значения искомого порога яркости используется формула, полу- 
ченная экспериментально: 


РЕ. 


м-М).0 

Поскольку исходное изображение содержит шум, следующим шагом в предобра- 
ботке является шумоочистка. Помимо шума изображение нотного текста содержит также 
МНОГО мелких значимых частей, которые необходимо распознать. Такими фрагментами 
МОГУТ ЯВЛЯТЬСЯ словесный текст, обозначения акцентов, стаккато и Т.Д. Кроме того, в эту 
категорию попадают точки, означаю щие удлинение ноты в полтора раза. Учитывая спе- 
цифику нотного текста (большинство объектов, подлежащих распознаванию, пересе- 
каются с НОТНЫМИ станами), наиболее разумным действием по шумоочистке представ- 
ляется выполнение сегментации и удаление всех сегментов, которые ИМЕЮТ относительно 
маленький размер. Безусловно, это приведет к удалению объектов, которые не пересе- 
каются с линиями нотного стана. Как следствие, за шум могут быть приняты нужные 
части изображения. Поэтому целесообразно перед удалением объектов провести их пред- 
варительное распознавание, такое распознавание будет проводиться при необходимости В 
ПОСЛеДНю ю очередь как уточняю щее. 

Распознавание печатного нотного текста невозможно без процедуры его структу- 
рирования, поскольку выделение структурных единиц позволит упростить последующее 
распознавание и повысить его эффективность. 


Структурный анализ изображения нотного текста 


В результате выполнения структурного анализа изображения детали, способные 
помешать распознаванию нотного текста, убираются, но при этом информация, кото- 
рую они несут, сохраняется. 

Эта задача осложняется разнообразием объектов структурирования. Для каждого 
из них необходимо выработать свой подход и методы обработки. Данная задача для 
каж дого объекта разбивается на последовательно выполняю щиеся процедуры: 

1) поиск объекта и его идентификация; 

2) сохранение свойств объекта; 

3) удаление объекта. 

Задачи обработки и распознавания изображений требуют больш ого количества 
повторяющихся операций. Обработка изображения целиком требует больших затрат 
времени и ресурсов системы. В то же время известно, что нотный текст имеет 
иерархическую структуру (рис. 2). Если вы полнить структурирование изображения и 
работать с каждой из структур отдельно, то это позволит уменьшить количество 
вычислений. 
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Рисунок 2 — Изображение нотного текста 

Как видно из рис. 2, на листе нотного текста можно выделить следующие струк- 
турные элементы: 

1) строка (набор нотоносцев, начала которых соединены общей тактовой чертой); 

2) группа нотоносцев (набор нотоносцев, соединенных вертикальными отрезками, 
каждый из которых в пределах нотоносца дает тактовую черту); 

3) нотоносец. 

Каждый последующий элемент является структурной единицей предыдущего. 
Так, из нотоносцев составляются группы, а из групп — строки. В пределах каждой 
структурной единицы работа ведется с ее изображением. Это позволяет в значительной 
степени сократить объем вычислений и использованной памяти. 

Для нахождения строк необходимо сегментировать бинаризованное и очищенное 
от шума изображение. Каждый полученный сегмент будет являться строкой. 

Переходим к следующему уровню иерархии: каждую найденную строку делим 
на группы нотоносцев. Группы нотоносцев обладают следующим уникальным 
свойством: все нотоносцы группы соединены слева непрерывной вертикальной 
линией, а справа — нет. Первоначально необходимо найти эти вертикальные линии 
(линия выделена жирным на рис. 3), и здесь возникает очередная проблема. 


группа 


»ян@о = 


Рисунок 3 — Группы в строках 
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В идеальном случае угол наклона линий нотного стана нулевой. Однако эта 
ситуация в большинстве случаев недостижима. Кроме того, как показала практика, 
эти линии могут прерываться из-за ошибок во время сканирования. Учитывая это, 
был использован метод поиска линий, основанный на преобразовании Хафа, широко 
используемый системами обработки изображений для обнаружения прямых. 

В простейшем случае преобразование Хафа является линейным и использует 
уравнение прямой с угловым коэффициентом: 


у=тх +Ь, 


где т — тангенс угла наклона прямой к оси ОХ, Ь — координата точки пере- 
сечения прямой с осью ОУ. 

Основная идея преобразования Хафа - учесть характеристики прямой не как гео- 
метрического места точек изображения, а в терминах ее параметров, т.е. ти Б. Прямая 
представляется в виде точки с координатами (Ъ, т) в пространстве параметров. Для каждой 
точки в пространстве (х, у) в пространстве параметров (Б,т ) будет соответствовать 
прямая, чем чаще через точку в пространстве (Б, т) будет проходить прямая, тем больше 
будет коэффициент < у этой точки. Нас интересует значение т, так как это 1ап(а№) угла 
наклона прямой, и Ь как значение положения линии. А также значение < в точке (Ъ, п), 
так как, чем больше это значение, тем вероятнее положения линии с данными парамет- 
рами. Зная эти параметры, мы получаем положение интересующей нас линии. В даль- 
нейшем преобразование Хафа применяется для поиска всех интересующих нас линий 
на изображении нотного текста. 

Для выделения групп необходимо удалить найденную вертикальную линию и 
повторить процедуру сегментации. Полученные сегменты будут являться группами 
нотоносцев. 

Для завершения структурирования изображения необходимо выделить нотоносцы, 
входящие в каждую из найденных групп. Для этого необходимо найти все тактовые линии 
по описанному методу поиска линий. Найденные линии необходимо удалить (рис. 4). 


нотоносец 


нотоносец 


Рисунок 4 — Нотоносцы в группе 


После сегментации полученного изображения каждый сегмент будет представлять 
собой отдельный нотоносец. 

Последний шаг в процедуре структурирования изображения — удаление 
нотоносцев. Причем сделать это надо, не задев ноты и другие объекты распознавания. 

Положение и наклон линий, а также их толщину мы получим после применения 
преобразования Хафа для поиска горизонтальных линий. Следует отметить, что простое 
удаление линий приводит к повреждению тех элементов изображения, которые в даль- 
нейшем подлежат распознаванию. Поэтому необходимо проверять наличие объектов на 
линии перед удалением. Для этого производится проверка на наличие черных фрагмен- 
тов с одной из сторон линии. Если они есть, то данный фрагмент должен быть больше, 
чем ОИЗ ,‚ где О/ - это расстояние между линиями нотного стана. При таком подходе 
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возможно небольшое обрезание объектов (нот, знаков и т.д.) по краям. В то же время 
это делает возможным полное удаление линии (неполное удаление вызвало больше 
проблем при дальнейшем распознавании). 

После удаления всех линий нотоносца изображение содержит объекты, подле- 
жащие распознаванию: ноты, знаки альтерации, паузы и т.п. (рис. 5). 


О Ес би 
Кр от 


Поскольку сохранены свойства удаленных объектов: угол наклона, масштаб (Ор, 
координаты всех горизонтальных и вертикальных линий, то при дальнейшем распозна- 
вании не составит труда восстановить принадлежность того или иного объекта к опре- 
деленному нотоносцу и определить взаимное расположение уже распознанных объектов 
и объектов, которые были удалены. 

Следующим шагом, необходимым для распознавания, является детектирование 
нот на изображении. 


Рисунок 5 — Изображение после удаления линий нотоносца 


Детектирование нот с использованием знаний 
о геометрии искомых объектов 


Достаточно точным математическим описанием ноты является эллипс. Определив 
для него длину большой и малой полуосей (а, Ь) и угол поворота относительно оси 
абсцисс, можно задать маску, при помощи которой и будет осуществляться дальнейший 
поиск нот. 


Рисунок 6 — Нота с условными обозначениями 


На рис. 6 показана нота и условные обозначения, используемые в дальнейших 
рассуждениях. Как выяснилось в результате проведённых исследований, угол наклона 
эллипса, описывающего ноту, равен 37 градусам, а соотношение между полуосями В/а = 
0,66. Зная расстояние между линиями нотного стана (ВС) и угол наклона ноты, можно 
определить один из диаметров эллипса АВ = ВС/я1и(37), а, следовательно, и болыпую 
полуось а =АВ/2. 

Основываясь на приведенных рассуждениях, ноты на изображении нотного текста 
можно детектировать как эллипсы с вычисленными параметрами. В то же время не- 
обходимость учёта случайной природы дефектов обрабатываемого изображения 
приводит к необходимости введения допусков на значения полуосей эллипсов. При 
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увеличении длин полуосей количество кандидатов в ноты уменьшается до тех пор, 
пока ноты не перестают обнаруживаться вообще. На рис. 7 приведены результаты 
детектирования нот с разными радиусами эллиптических масок. Причём, чем темнее 
точка, обозначающая центр ноты, тем большее значение радиусов соответствует ей. 


Рисунок 7 — Результат детектирования нот 


Очевидно, что в данном случае наибольший интерес представляют точки, соот- 
ветствующие эллипсам с максимальными радиусами. В 3-мерном пространстве (Хх, у, 3), 
где хи у - это координаты точки на изображении, а < — величина болышой полуоси 
эллипса с центром (х, у), соответствующего точке, локальные максимумы (рис. 7) будут 
отвечать наиболее вероятным положениям центров нот. На рис. 8 данные множества 
таких точек отображены белым цветом. 

Как показало тестирование, одной ноте может соответствовать несколько областей 
локальных максимумов. Поэтому для уточнения положения центра каждой найденной 
ноты необходимо выполнить кластеризацию всех обнаруженных локальных максимумов, 
причём нормированная величина <-компоненты точки будет служить еб весом. 


Рисунок 8 — Наиболее вероятные центры нот 


При кластеризации проводится поиск точек, удаленных от центра кластера не 
более, чем на длину малой полуоси Ь. Вычисление координаты нового центра кла- 
стера и его веса производится по следующей формуле 


К=(К1+К2)+(К1-К2х(У2-У1)) 
и=((К-К!)/(К2-К1))х(72-71)+ 71, где 
К - новая координата, 

Г — новая вероятность, 

К1- координата первой точки, 

К2 - координата второй точки, 

Г! - вероятность первой точки, 


72 — вероятностьвторойточки. 
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После кластеризации получаем искомые центры нот, на рис. 9 эти центры 
обозначены белым цветом. 


Рисунок 9 — Результат кластеризации 


Выводы 


В ходе проведения этапа структурного анализа нотного изображения и де- 
тектировании нот на нем, был разработан метод детектирования нот, обладающий 
робастностью по отношению к качеству изображению нотного текста. 

Робастность достигается за счет предварительной обработки, что позволило 
сделать следующие выводы. 

Приведение изображения к оттенкам серого и использование порога, полу- 
ченного экспериментально, позволяет отделить фон от значимых элементов даже на 
изображении плохого качества. При этом мелкие значимые части, которые в ходе 
предварительной обработки могут быть приняты за шум, не удаляются в результате 
структурного анализа. 

Структурный анализ проводится на основе преобразования Хафа с учетом спе- 
цифики нотного текста, имеющего иерархическую структуру. В результате с высокой 
точностью выделяются элементы каждого уровня иерархии, кроме нот. 

Процедура детектирования нот базируется на геометрических свойствах искомых 
объектов. В ходе выполнения этой процедуры вычисляются радиусы эллиптических 
масок и за счет кластеризации уточняются центры эллипсов, что позволяет повысить 
эффективность детектирования нот по сравнению с методом поиска по маске, 
широко используемым при обработке цифровых изображений. 

Продолжением данной работы является исследование эффективности методов 
распознавания выделенных элементов с целью создания технологии оптического 
распознавания нотного текста, позволяющей сделать процесс распознавания более 
автоматизированным и робастным по сравнению с существующими аналогами. 
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